クラスタリング 自然言語処理のための機械学習入門
クラスタリング
準備
凝集型クラスタリング
k平均法
適当にいくつか代表点を決めて、観測点は、どれか代表点に(距離, カーネル関数値?)近いもので最初のクラスター
最初のクラスターで、平均ベクトルを求めて、それを代表値にして、またクラスター化。観測値の所属に変化がなくなるまでやる。
混合正規分布によるクラスタリング
K平均方は、クラスターへの所属を確定させている。所属を割合(確率)にする。その所属・割合を多次元?正規分布で、分散を各クラスターで同じとする。そうすれば、各クラスター別に確率が出るので、正規化?して、各点はこのクラスターにこれくらいというのが出る。
上記で、各点ごとにそれぞれのクラスター所属確率がでるので、逆にクラスター別に代表ベクトルが出せる。あとはk平均方と同じ。
EMアルゴリズム
上記の混合正規分布クラスタリングを一般化。
平均でいくのではなく、各点があるクラスターに所属する尤度を最大化するパラメータ(平均)が計算できるといい。確率分布も選べる。対数尤度を計算する代わりに、直近のパラメータからのデータの確率と求めるパラメータによる対数尤度の積を最大化するパラメータを求める。それをQ関数と呼ぶ。 #20171126 クラスタリングにおける問題点や注意点
この章のまとめ
章末問題